﻿ Curs 12 Alinieri Sisteme complexe în IA În două dintre proiecte apare necesitatea de a produce alinieri ✦ P5 Recunoașterea optică a caracterelor pe tipărituri și manuscrise ✦ intrarea constă din două fișiere: unul conținând o colecție de imagini de pagini scrise cu caractere chirilice; al doilea conținând transcrierile lor în caractere latine ✦ programul vostru trebuie mai întâi să facă alinierea imaginilor cu textele, apoi să folosească aceste alinieri pentru a învăța să recunoască scrisul chirilic românesc ✦ P9 Aliniere voce-text: ✦ intrarea constă din două canale: unul care conține un semnal vocal și al doilea care conține transcrierea textuală a înregistrării ✦ programul vostru trebuie să producă un fișier XML care să marcheze alinierea celor două intrări Exemplu de aliniere emnalul audio este întins cu un factor Sde 25% (a se vedea SoundTouch) Aliniere vorbire-text Pentru a depăși probleme de memorie: în cazul în care sunetul întins este mai lung de 30 de secunde, se segmentează în fișiere audio individuale cu o lungime mai mică de 30 de secunde, după tăceri și, dacă există, vorbitori (v LIUM) Pentru fiecare fonem se alege decodarea cu scorul maxim de încredere + momentul de start+ durata (v Phnrec recognizer) Fișierele individuale sunt întinse în timp și se unesc pentru a forma o singură transcriere fonetică Ieșirea: un set de simboluri grafice individuale + un simbol pentru tăcere Alinierea grafem-fonem (programare dinamică) Din (Anguera et al , 2014) Normalizarea textului ò Se folosesc grafeme pentru a nota sunetele limbii, în loc de alfabetul fonetic ò se atinge aceeași calitate cu mai puține resurse ò multe dintre grafeme reprezintă foneme (sunetele semnificative) ale limbii, cu excepții: ò mai multe grafeme decât foneme: ò în română: che, chi, ghe, ghi ò în engleză: sh ò mai puține grafeme decât foneme: ò în rusă: я ò un grafem pentru niciun sunet: ò în engleză: b în debt ò în spaniolă: h nu se pronunță Programare dinamică ò O secvență trebuie transformată în alta utilizând operațiuni de editare: înlocuire, inserare ștergere ò Fiecare operație are un cost asociat, iar scopul este de a găsi o secvență a editărilor care să însumeze cel mai mic cost total ò Recursie: o secvență X este editată optim într-o secvență Y astfel: ò ștergerea primului caracter al lui X și continuarea alinierii optime dintre coada lui X și Y; ò înlocuirea primul caracter al lui X cu primul caracter al lui Y și continuarea alinierii optime dintre coada lui X și coada lui Y; ò inserarea în X a primului caracter al lui Y și continuarea alinierii optime dintre X și coada lui Y ò Alinierile parțiale pot fi memorate într-o matrice D, unde celula (i, j) conține costul alinierii optime a șirului X la șirul Y Costul din celula (i, j) poate fi calculat prin adăugarea costului operațiunilor relevante în contextul curent la costul celulelor vecine și prin selectarea minimului pD(X) + D[X, Y], unde pD(X) este penalizarea ștergerii grafemului X ii-1jii D[X, Y] = min pC(X, Y) + D[X, Y], unde pC(X, Y) = penalizarea schimbării grafemului X cu fonemul Y ijiji-1j-1ijij pI(Y) + D[X, Y], unde pD(Y) este penalizarea inserării grafemului Y jij-1jj Alinierea grafeme-foneme ò Prin programare dinamică ò se completează matricea distanțelor D ò se urmărește o cale în matrice, plecând din colțul dreapta-jos, înapoi spre colțul stânga-sus, pentru a afla secvența operațiilor de aliniere Decoderul produce o latice ò Laticea fonemelor = un graf direcționat fără bucle ò Fiecare nod e etichetat cu un punct în timp, iar arcele cu foneme ipotetice și scorurile lor de recunoaștere latice de grad 2 pentru cuvântul ship Din (James and Young, 1994) Terminologie de bază ò fon (phone) = un sunet de vorbire; fonurile sunt reprezentate prin simboluri fonetice (într-un limbaj de transcriere fonetică) derivate din litere ale unui alfabet ò fonem (phoneme) = (atât în lingvistică cât și în prelucrarea vorbirii) clasă abstractă pentru a surprinde similitudinea între diferitele pronunții ale unei litere ò pitch = perioada fundamentală a semnalului de vorbire Reprezintă frecvența de vibrație a corzilor vocale în timpul producerii sunetelor (de exemplu, vocale) ò diarizarea vorbitorului (speaker diarisation) = procesul de împărțire a unui flux audio de intrare în segmente omogene în funcție de identitatea vorbitorului O combinație între: ò segmentarea vorbitorului: găsirea punctelor de schimbare a vocilor într-un flux audio ò clusterizarea segmentelor individuale: gruparea segmentelor de vorbire pe baza caracteristicilor vocilor ò model acustic = relația dintre un semnal audio și fonemele sau alte unități lingvistice care alcătuiesc vorbirea; un model este învățat dintr-un set de înregistrări audio în pereche cu transcrierile lor; un program este antrenat pentru a crea reprezentări statistice ale sunetelor care alcătuiesc fiecare cuvânt ò alfabet (writing script) = set de caractere care codifică scrierile într-o limbă (latin, chirilic etc ) ò dicționar de pronunție = o colecție de reprezentări ortografice ale cuvintelor în pereche cu succesiunile corespunzătoare de foneme Alte probleme care necesită alinieri ò Construirea eDTLR: formatul electronic al Dicționarului Tezaur al Limbii Române ò citările din paginile corectate ale dicționarului sunt potrivite cu șirurile găsite prin OCR-izarea documentelor originale => vizualizează contextele de apariție ale citatelor din surse ò Identificarea de cuvinte cheie în vorbire, recuperarea mesajelor ò cuvinte rostite sunt descompuse în trăsături; acestea sunt apoi utilizate pentru a potrivi întrebarea cu fluxul de vorbire ò Pagini OCR-izate din documente chirilice-românești sunt aliniate versiunilor corectate ò din aceste alinieri pot fi deduse reguli de auto-corecție pentru OCR- izator Marele Dicţionar tezaur al Limbii Române 1906 – 2010 Pentru ca utilizatorul să poată R accesa sursa unui citat din eDTLR OC txt txt img Utilizatorul indică un corect imperfect citat într-o pagină on- line a eDTLR comparare (approximate string matching) şi primeşte un decupaj conţinând citatul şi un context al lui în eDTLR – Dicţionarul tezaur al imaginea sursei Limbii Române în format digital originare Îmbunătățirea OCR-izatorului prin reguli de auto-corectare ò Cel mai adesea, software-ul OCR introduce erori Îmbunătățirea rezultatului OCR se poate face în două moduri: ò prin compararea rezultatelor cu o listă preexistentă de cuvinte ò prin aplicarea unor reguli de corecție deduse automat => reguli deduse prin compararea ieșirii OCR (Test) cu aceeași întindere de text revizuită manual de experți (Gold) Alinierea fișierelor Te s t și Gold ò Alinierea poate fi obținută prin parcurgerea celor două texte de la stânga la dreapta, în paralel, cu ferestre de dimensiuni egale, căutând potriviri imperfecte în zone plasate între potriviri perfecte Textul aliniat rămâne în spatele celor două ferestre Generarea regulilor de corectare ò Diferențele găsite de mai multe ori semnalează erori repetitive ale OCR, care ar putea fi reduse prin reguli ò Regulile de corectare contextuală trebuie să respecte formatul: => unde: Lctx = contextul stâng, Rctx = contextul drept, Estr = șir eronat, Cstr = șir corect ò Pentru ca o regulă să fie validă, în perechea de texte Test-Gold, trebuie să fie îndeplinite condițiile: ò oricând șirul este în Test, Gold conține în aceeași poziție șirul ò Regulile de corecție ar trebui să includă contextul minimal care nu produce corecții false => mărirea progresivă a și până cee această condiție este îndeplinită (cu pericolul ca unele situații de corecție să fie pierdute, deoarece un context mai mare face ca acesta să fie mai restrictiv) Ieșirea aliniatorului ò O reprezentare posibilă: ò D[c] marchează Ștergerea unui caracter c; ò I[c] marchează Inserarea unui caracter c; ò C[c,d] marchează Schimbarea unui caracter c într-un caracter d; ò orice alt caracter (inclusiv spațiile și semnele de punctuație) reprezintă caractere neschimbate Test Test Gold Gold Cum să construim sisteme complexe? TA = Text Analytics NER = Name Entity Recognition AR = Augmented Reality EC = Entity Crowling DEV = Device Info RD = Relations Detection INT = Interfaces GEO = Geography RES = Resources M&T = Maps and Trajectories M&E = Management and Evaluation 18 SYNASC, UVT Timișoara, 27 Sept 2016 MyDailyLife – schema generală Activities Behaviour sensors graph Text generation Diary repr Localisation Movement Inferences Question Diary Faces answering MyDiary Sounds& voices Forma recomandată a unui modul care participă într-un lanț de prelucrări txt parametri ieșire intrare Modul X standardul standardul intrării ieșirii resurse standardul resurselor 20 Dacă se înțeleg în intrări/ieșiri, modulele pot fi înlănțuite txt txt parametri X parametri Y Modul X standard standard XY Modul Y standard YZ intrare resursa X resursa Y standard standard resursă X resursă Y 21 Cum se calibrează un modul? ò Să presupunem că vrem să construim un modul care să realizeze un anumit obiectiv Atunci, de fapt, va trebui să fabricăm 3 module: § Modulul de antrenare (TM) § Modulul propriu-zis (X) § Modulul de evaluare (EM) Modulul de antrenare (TM) ò TM extrage dintr-un corpus de antrenare un model care va fi apoi folosit de molulul X preferencesTraining pref Training Module Training model Corpus 23 Modulul X ò X aplică un algoritm asupra unei intrări pentru a o transforma în conformitate cu modelul învățat preferencesX pref model The module X output xml input xml 24 Modulul de evaluare (EM) ò EM evaluează (compară) un fișier Test față de un fișier considerat corect (de aur) Gold preferencesEvaluaon pref Test output xml Evaluaon Module evalLog gold xml 25 Măsuri în evaluare • Precision = #itemi în comun în Test & Gold/#itemi în Test • Recall = #itemi în comun în Test & Gold/#itemi în Gold • F-measure = 2 * P * R / (P + R) 26 Asamblarea unui sistem de calibrare preferencesTraining pref preferencesX pref TM model X input xml Training corpus output xml ld xml evalLog EM go 27 preferencesEvaluaon pref Calibrare = iterarea parametrilor până la obținerea unui optim TM conﬁguraon cfg preferencesTraining pref nput xml X i preferencesX pref gold xml preferencesEvaluaon pref EM Training Opmal values Corpus C 28 Evaluarea unu-din zece (10-fold) ntrenează X corpusul ape 9 părți Gold i terează de 10 ori F i evaluează X pe a Σi 10a parte => FF1, F2 F10 F = 10 10 Bibliografie ò An implementation of the SOLA (Synchronous-OverLap-Add) algorithm can be found in SoundTouch Audio Processing Library: http://www surina net/soundtouch ò Xavier Anguera, Jordi Luque, Ciro Gracia (2014) Audio-to-text alignment for speech recognition with very limited resources, in proc Interspeech 2014, Singapore Available: http://www xavieranguera com/papers/IS2014 phonealignment pdf ò M Rouvier, G Dupuy, P Gay, E Khoury, T Merlin, and S Meignier (2013) “An Open-source State-of-the-art Toolbox for Broadcast News Diarization,” in Proc Interspeech Available: http://www-lium univ-lemans fr/diarization ò P Schwarz, “Phoneme Recognition Based on Long Temporal Context,” Ph D dissertation, 2008 Available: http://speech fit vutbr cz/software/phoneme-recognizerbased-long-temporal- context ò M Killer, S Stüker, and T Schultz, “Grapheme Based Speech Recognition,” in Eurospeech, pp 3141–3144 Site-uri folositoare ò The open source SoundTouch audio processing library Site-uri folositoare ò The LIUM Speaker Diarization toolkit Site-uri folositoare ò Phoneme recognition 